from langchain_community.document_loaders import PyPDFLoader

# pip install rapidocr-onnxruntime

file_path = "../resource/functional_design.pdf"
"""
设置extract_images=True即可，简单的pdf上图片可以，但复杂的一些情况不行。
"""
loader = PyPDFLoader(file_path=file_path, extract_images=True)
pages = loader.load()

# 识别第6页的图片文字
print(pages[5].page_content)
